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摘 要 


本 文 提 出 一 个 名 为 接 圆 回 归 的 点 击 率 预测 新 方法 ,尝试 蔡 代 常用 的 因子 分 解 机 (EM)。 接 圆 回归 用 
超 平面 拼接 出 一 个 封闭 凸 多 面体 , 圈 出 正 样本 , 有 直观 的 几何 解释 , 能 从 任意 初始 值 一 次 收敛 到 全 局 最 
优 解 。 拟 合 出 来 的 曲面 Lipschitz 连 续 , 变化 平缓。 在 人 工 设计 的 星 环 集 、 双 堆 集 、 双 月 集 上 , 接 圆 回归 


的 分 类 准确 性 、 解 释 性 、 平 滑 性 全 面 超过 FM。 在 同 量 级 参数 量 、 计 算 量 的 条 件 下 , 接 


避 回 归 在 Avazu 集 


和 Criteo 集 上 的 AUC 超 过 FM。 
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Abstract 


This paper proposes a novel method named Polyhedron Regression(PR) for Click-Through-Rate 


prediction, aiming to take the place of Factorization Machines(FM). PR constructs a 


with hyperplanes to separate positive samples from negative samples. PR has intuitio 


convex polyhedra 


nistic geometrical 


interpretations and a Lipschitz continuous surface, converges to global optimum point from arbitrary 


initial values. Compared with FM, PR has better classification accuracy, interpreta 


bility and surface 


smoothness on the three artificial datasets. With comparable parameters and computation, PR achieves 


better AUC than FM on Avazu and Criteo datasets. 
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1. 引言 


大 量 的 网 站 、 手 机 应 用 采用 信息 流 推荐 技术 , 推荐 效果 直接 影响 企业 收入 。 推荐 过 程 大 致 
这 样 , 以 微 博 热 门 流 为 例 , 当 用 户 刷新 页 面 时 , 云端 推荐 系统 立即 从 物料 库 中 粗 选 出 一 批 微 博 ， 


上 日 
候 


几 


十 至 几 百 条 , 然后 将 这 批 微 博 送 入 排序 模型 进行 打分 , 再 根据 各 条 微 博 的 得 分 情况 挑选 出 一 部 分 


进行 曝光 。 对 排序 模型 的 核心 要 求 有 2 个 : 速度 快 、 效 果 好 。 实 际 业 务 中 ,排序 的 时 


秒 以 下 , 时 间 过 长 会 影响 用 户 体验 ; 效果 好 就 是 用 户 的 点 击 率 高 。 
在 实际 使 用 中 发 现 ，Wide & Deep 图 之 类 的 深度 学 习 模 型 有 几 个 难点 : 角 
提升 有 限 ， 消 耗 的 算 力 却 成 十 倍 地 增加 。 在 线 机 器 学 习 中 ,模型 要 快速 更 新 ， 


孚 释 性 差 ， 排 序 效 
例如 30 分 钟 更 新 


间 配 额 在 20 训 


四 
个 


次 , 这 就 要 求 模 型 训练 要 快速 度 完成 。 而 深度 学 习 模 型 收 剑 性 依赖 于 参数 初 值 , 不 保证 每 次 都 收 


敛 到 全 局 最 优 解 ,快速 更 新 与 参数 最 优 难以 兼 得 ,服务 器 成 本 还 很 高 。 


| 
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简单 模型 因子 分 解 机 (Factorization Machines, FM) 广 泛 使 用 , 它 解释 性 好 , 计算 量 较 小 。 但 FM 也 
有 一 些 缺 点 : 捕获 交叉 特征 是 人 类 视角 的 解释 , 不 是 严格 的 数学 解释 ; 拟 合 的 曲面 变化 剧烈 ( 见 
图 1), 与 事物 平缓 变化 的 经 验 不 符 ; 收敛 性 依赖 于 初 值 , 容易 陷入 局 部 最 优 解 。 

本 文 提 出 一 种 叫做 接 圆 回归 的 排序 方法 , 它 保留 了 FM 计算 量 小 的 优点 , 又 克服 了 FM 的 缺点 。 
接 圆 回归 有 直观 清晰 的 几何 解释 : 用 多 个 折 面 拼接 出 一 个 封闭 是 多 面体 , 多 面体 内 是 正 样 本 , 多 
面体 外 是 负 样 本 。 计算 量 小 , 且 与 折 面 数量 成 正比 , 可 以 通过 指定 折 面 数 来 灵活 调整 。 拟 合 的 曲 
线 变 化 平缓 ,Lipschitz 连 续 。 从 任意 初 值 出 发 训练 ,都 能 一 次 收敛 到 全 局 最 优 解 。 

接 圆 回归 有 望 接 蔡 逻辑 回归 中 和 FM, 组 件 棉 子 正则 也 可 以 应 用 到 各 种 深度 学 习 模 型 当中 。 

本 文 后 续 内 容 这 样 组 织 。 第 2 节 相 关 工 作 给 出 当前 流行 的 排序 模型 , 第 3 节 给 出 接 圆 回归 的 公 
式 , 第 4 节 介 绍 至 关 重 要 模子 正则 , 第 5 节 给 出 偏 导数 的 推导 过 程 , 第 6 节 给 出 小 批量 计算 时 的 偏 
数 ， 第 7 节 给 出 真实 数据 集 上 的 实验 结果 , 第 8 节 讨 论 总 结 全 文 。 


dn 


2. 相关 工作 


~ 本 节 只 给 出 目前 工业 界 常用 的 CTR 算 法 。 
逻辑 回归 出 (Logistic Regression)， 形 式 简 单 ， 计 算 量 小 ， 在 推荐 系统 中 广泛 应 用 。MLR 里 改 
进 逻 辑 回 归 ，, 提出 用 分 片 平面 分 隔 正 负 样 本 。 因 子 分 解 机 此 9(Factorization Machines, FM) 使 用 交 
又 特征 ， 实 践 中 常用 二 阶 交 又 特 征 ， 计 算 量 只 比 逻 辑 回 归 增 加 了 k 售 ， 这 里 的 k 是 FM 的 隐 向 量 数 
量 。 FFM 趾 按 域 组 织 交 叉 特 征 , 隐 向 量 数 k 远 小 于 FM, 但 参数 量 和 计算 量 都 成 倍增 加 。 
逻辑 回归 的 流行 实现 库 为 LIBLINEAR 中 ，FM 的 官方 实现 库 为 ibFM [5 ，FFM 的 官方 实现 库 
为 libFFMD 。xLearn2) 是 新 近 出 现 的 算法 库 ， 它 几乎 宫 括 LIBLINEAR、libFM、libFFM 的 全 部 功 
能 ， 并 且 具 有 更 好 的 性 能 、 易 用 性 和 可 扩展 性 。 
将 神经 网 络 与 传统 机 器 学 习 算 法 结合 , 同时 捕获 高 阶 特 征 和 低 阶 特征 , 得 到 了 一 些 新 算法 。Wide 
上 Deep 图 给 合 神经 网 络 与 逻辑 回归 ; deepFM [19 结合 神经 网 络 与 FM; AFM [3 用 神经 网 络 来 优 
化 FM 的 隐 参 数 ; FNN Li 先 用 FM 学 习 到 的 隐 向 量 作 为 神经 网 络 的 输入 , 再 由 神经 网 络 完成 最 终 学 
习 ; Deep & Cross 03 不 需要 特征 工程 就 能 获得 高 阶 的 交叉 特征 ， 比 FM 系列 模型 有 更 高 的 计算 效 
率 ; xDeepFM [自动 学 习 显 式 的 高 阶 特征 交互 ; DIN [1 引 设 计 了 一 个 attention 结 构 ， 引 入 用 户 的 历 
史 行 为 。 


te 


3. 接 圆 回归 


AU。 yy (eye). 小 A 
电量 0 E {0,1}。 当 y0 = 0 时 ， 称 2 是 负 i 样本， 当 y() = 1 时 , 称 z 中 是 正 样 本 。 DD 中 正 、 负 样 本 的 
数量 分 虽 记 为 m1 和 no, 显然 有 no 十 mi 一 二 分 类 问题 的 目标 是 从 数据 集中 学 习 到 一 个 模型 ， 然 
后 用 这 个 模型 预测 任意 的 样本 z 所 属 的 类 别 。 
对 V(z,y) seD 和 任意 给 定 的 正 整 数 m， 定 义 接 圆 回 归 


Zi = min (wr tb, -wfz+h) » (3.1) 

z = Ga 

ZZ 二 一 Zi, 
Wt 

a = 0o(2), (3.3) 


这 里 的 w; = (Wi W2iy ...) wai)7 是 d 维 列 向 量 ， 和 6b; 是 实数 ， Sigmoid 函 数 g(z) 二 i o 


1) https://www.csie.ntu.edu.tw/™cjlin/libpffrm/ 
2) https://github.com/aksnzhy /xlearn 
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为 了 简洁 ， 也 为 了 提高 在 计算 机 上 的 运算 速度 ， 记 算 阵 W = [wi,wz)...,wm]， 列 问 量 b = 
(b1,b2,..., bm)!, 动向 晤 = 闪 让 m)7， 列 向 量 z = (z1, 22)...,Zm)7 , 函数 mean(z) = 吉 D1 Zi。 
将 式 (3.1) 和 式 (3.2) 向 量化 为 

Zz = min (WTz +b,—WTz+D), 3.4) 
z = mean(z). (3.5) 

样本 (zx,y) 上 的 损失 函数 定义 为 
st 说 (3.6) 

lna, 若 y==1 

数据 集 D 上 的 损失 函数 定义 为 

H(W,b,b) = 二 - h(z )+ lt wed(cos 0i;, cos 00) (3.7) 
人 y)eD i=1 j=i+1 


= Hi(W,b,b) +mHa(W) + mHs(W) 


这 里 的 印 (W,b,b) 是 样本 损失 ，H2(W) 是 L2 正 则 损失 ，Hs(W) 是 模子 正则 损失 ， 非 负 实 数 m 和 mp 为 


相应 的 正则 数 化 系数 。 接 圆 回 归 对 应 的 优化 问题 是 


{W”*,0*,b*} = H(W, b,0b). 


arg min 
WeRdxm,b€ER™m ,bER™ 


4. 模子 正则 


(3.8) 


式 (3.7) 中 模子 正则 的 作用 是 让 多 个 向 量 均 匀 分 布 , 不 要 挤 在 一 起 , 就 像 在 任意 两 个 向 量 之 间 


都 塞 了 一 个 模子 。 


对 m 个 d 列 向 量 wi,w2,... ,wm 和 Vi, 7 = 1,2,... 


T 
Wi; Wj 


cos 0;; = 
oa 


显然 有 cosbij = cos0;i。 定 义 模子 函数 


;7 向 量 w; 和 wj 的 夹 角 记 为 0;;， 则 夹 角 余弦 为 


In(1—c)+In(l1 -0%)， 邦 |c| > leol, 
wed(c, co) = 
0， 邦 |c| < |co|. 
这 里 的 0 < co < 1 是 任意 指定 的 实数 。 对 任意 给 定 的 实数 bo e [0, 3], 模子 损失 定义 为 


1 mm mm 
> a RE pe 
3(W) i 2 
JI 二 
导数 。 对 Vk = 1,2,...， 


思 -所 。 
Ts COSORj;， 右 尺 二， 


I 

lp jz 
O cos 0i; ER Se . 
Ow [wxl- hwil [wxl? Cos Opi， 右 天 二 沁 


0， 若 k 关 i 有 kk 元 


Mm, 易 得 
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模子 函数 的 导数 为 


wed'(c, co) = 


dwed(c,co) _ 于 和 ， 若 |c| > |co|， 
ae 0， ”车 |d < lool. 


从 而 , 模子 损失 的 偏 导数 为 


OHs(W) _ 1 ES O cos 0ij 
Bo 一 有 WO 
d= 
jz 
1 us Wi WE 
a ed (cos Oi, cosO cos Ori | ， 4.1 
TCD 
1 天 天 
OHsa(W) _ [OHs(W) OH3(W) © 0Hs(W) (4.2) 
DT 加 Dul ”bu ”bo | 


5. 计算 偏 导 数 


用 随机 梯度 法 (SGD) 等 迭代 方法 求解 最 优化 问题 (3.8) 时 , 会 用 到 五 (Wb,b) 的 偏 导数 , 由 于 min 函 
数 的 存在 ,， 偏 导数 形式 有 点 复杂 ， 因 此 本 节 给 出 偏 导数 的 推导 过 程 。 
令 f 和 f 均 为 m 维 列 向 量 , 满足 f = 1 一 了 记 f = ( 凡 ; 户 ;fm)7， 对 Vi 二 1,2,...,m, 将 所 定义 为 


1， 若 z= wiz 十 0;， 


i 


fi= 
0， 若 = 一 wiz+i+bi 有 zi zw r+ bi 


简 记 为 f= (wfz + bi < 一 w7z 十 了)。 从 而 式 (3.) 可 改写 为 


z= WV r+ bfit (wr tbi)f, i=1,2,...,m. (5.1) 


式 (5.1)(3.2)(3.3)(3.6) 易 得 偏 导数 


Oh(zx) Oh(z) Oa 全 右 y= 0， 


OF Oa 65 二 
Oz 1 Ozi A Ozi ee O%i 
Bz a 5 a (fi fi)z, Ob; = fi; op, = 
经 过 链 式 求 导 , 得 
Oh(zx) Oh(z) 02 92 _ | 2afi 在 y=0， (5.2) 
Ob; 加 Oz O%i Ob; 加 工 (a 一 1)fs, 若 /一 1: 
Oh(z) Oh(z) 0z 0% |:afi， 若 y=0， (5.3) 
Ob: 07 Oa0b |i(a-1)h， 车 y=1. | 
Oh(z) _ Oh(z) 02 Oz | za 一 fi)z, 若 y=0， (5.4) 
式 (5.2)-(5.4) 对 应 的 向 量 形式 偏 导 数 分 别 为 
Oh(z) _ |] 友和 a 在 y=0， (5.5) 
J 翅 (Q 一 1f， 阁 y=1. 
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ob 寺 (a 一 1)f， 若 y=1 
EW -Dz(f 一 及 ?， 若 y=1. 
从 而 
OHi(W,b,b) 1 Oh(x) OHi(W,b,b) 1 Oh(z) (5.8) 
0 (rz,y)ED 0b Ob 人 (z,y)ED Ob 
OHi(W,b,b) 1 Oh(z) 
oOoW oOoW 二 
(z,y)ED 
2(W) 偏 导数 容易 计算 
OH>2(W) 1 | WI1 Wo Wm, | 
oOW ma [oil lvl on 
因此 得 
OH (W, b,b) OHi(W, b, Db) 
Ob Ob ; 
OH(W,b, 0) OH (W, b, b) 
5 0 _ _ 
OH(W,b,b) OHi(W,b,b) 时 OHo(W,b,b) OHs(W,b,d) 
OW 一 5 aW 2 OW 


6. 小 批量 计算 


在 实际 应 用 场景 中 ,训练 样本 数量 n 通 常 很 大 ,在 百 万 以 上 


tf 至 达到 百 亿 数量 级 。 为 了 减少 


计算 量 , 每 步 只 在 一 小 批 样本 上 训练 。 如 果 使 用 式 (5.8)(5.9) 来 计生 
样本 都 要 计算 1 次 ,效率 不 高 
规模 的 矩阵 运算 。 


见 , 中 的 编号 , 负 样本 在 前 , 正 样本 在 后 , 即 刀 = {zGD,z(2 
令 负 样本 天 阵 XI = [zz ,zao)]， 大 小 为 d x fo; 
[6,05,.…,0]， 大 小 为 m x jo。 令 正 样本 矩阵 中 = [x a 
[5,b,.…,0]， 大 小 为 m x 加 ; B= [b,b,.…, 站 ,大 小 为 m x 和 。 

接 圆 回归 的 前 向 计算 为 


将 小 批量 样本 集 记 为 D c 也 ， en 正 负 样 本 数量 分 别 为 名 和 jio。 
+1 


., TN), lho1 


= [0,b,...,0] 


在 一 批 样本 上 的 偏 导数 ， 每 个 


。 为 了 将 一 批 样本 上 的 偏 导数 同时 计算 出 来 ,本 节 将 其 转化 为 更 大 


简便 起 
Toth)}, 
i x fo; Bl] = 
zoth1)] ， 大 小 为 dx; BI = 


) zho+2) 


Z0 = min (7XD + Bo, _TrTXO + Bol) i 
5 = mean(2l), 
ao = ol(zl) 
负 样 本 集 上 的 损失 函数 为 
HI (W, b, b) ee > In(1 — al'!) 
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对 正 样本 做 类 似 的 向 前 计算 为 


Z0 = min (WTXU + BU,—WTXH + BU) , 
5 = mean(2U), 
am = ol(zll), 


正 样本 集 上 的 损失 函数 为 


HI (W,b, 0b) = mo 
为 求 偏 导 , 令 
Fiol = = (WTX™ + BO < WTXY + Bo) ， Fl =1— Fil， 
易 得 
_ 
aH! l(w, b, 0b) 人 1 Flol gloT 
ob nomh 
有 
OB (Wh) _ Om poolor 
ob NomN 
OH (W, b,b) 


Nl : 
一 x [MYFol _ FON)T 
BW Br diag(a 外 ) 


这 里 的 diag(al0l) 将 向 量 转 为 对 角 线 矩阵 ， 此 处 只 是 为 数学 表达 方便 , 实际 计算 机 程序 代码 中 不 要 


转 成 稠密 矩阵 , 否则 会 使 计算 量 增加 a 倍 。 
为 求 偏 导 , 令 


FD 一 (7XD + BYU<_ WTXU+ Bu) ， Fl 1 FDl. 


易 得 
OHI(W, b,b) 1 
Lk) 一 -Pamb7 -1 
Ob mh (a )， 
[1] 7 
oF (WhD) _ 1 gl 三 三 = 站 
Ob mn ， 
[1] 7 
on ED) 
oOW mh 


7. 实验 


本 节 给 出 接 贺 回归 的 直观 几何 解释 , 在 公开 数据 集 上 对 比 接 圆 回归 与 FM 的 性 能 。 FM 的 训练 、 


预测 采用 xlearn, 接 圆 回归 的 训练 、 预 测 采 用 自 编 Matlab 程 序 。 


实际 业务 的 数据 集 维 数 通常 很 大 ,难以 直观 显示 。 为 了 观察 FM 和 接 圆 回归 的 样子 ,这 里 设 
计 3 个 二 维 数据 集 : 星 环 集 、 双 堆 集 、 双 月 集 ， 即 子 图 1def 中 的 散 点 , 蓝 点 是 正 样本 , 红 点 是 负 样 


本 。 


取 隐 向 量 数 为 2, 在 这 3 个 数据 集 上 分 别 训练 FM, 得 到 FM 在 这 3 个 数据 集 上 的 预测 值 $, 见 图 1。 
第 一 行 的 3 个 子 图 是 立体 图 , 竖 轴 是 预测 值 9,， 颜 色 越 接近 黄色 预测 值 越 接近 1, 颜色 越 接近 蓝 色 预 
测 值 越 接 近 0。 第 二 行 的 3 个 子 图 是 立体 图 的 俯视 图 , 颜色 含义 与 立体 图 一 致 。 在 星 环 集 上 , FM 无 


法 有 效 分 隔 正 负 样本 , 如 子 图 la 所 示 , 只 有 几 个 点 上 的 预测 值 大 于 0.6 或 小 于 0.4; 如 子 图 1d 所 示 , 星 
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表 1: FM 和 接 圆 


系统 ; 对 接 圆 回归 ， 


- 


在 星 环 集 (ad)、 双 堆 集 (be)、 双 月 集 (cf) 上 的 效果 。 


归 在 Avazu 集 上 的 表现 。 对 FM, k 是 隐 向 量 数量 ,和 是 SGD 和 从 代步 长 , 7 是 正则 化 


m 是 接 圆 归 的 折 面 数 ，》 是 SGD 从 代步 长 ， 帮 是 L2 正 则 化 系数 , m2 是 模子 正则 化 
模型 参数 验证 集 AUC 
FM k=16, A=0.2, n = 0.002 0.7577 
FM k=32, A=0.2, 7 = 0.002 0.7583 
FM k=64, A=0.2, n = 0.002 0.7582 
接 圆 回归 | m=16, 和 =16,m=0, m2 二 0.001 0.7607 
接 圆 回归 | m=32, 和 =16,m==0, m2 二 0.001 0.7637 
接 圆 回归 | m=64, 和 =16,m==0, m2 二 0.001 0.7658 


集 所 在 的 2 维 空间 中 , 左上 角 的 预测 值 稍 大 , 右 下 角 的 预测 值 稍 小 , 没有 突出 中 心 的 圆 形 正 类 。 


如 子 图 lbe 所 示 , 在 双 堆 集 上 , 虽然 FM 在 验证 集 上 的 AUC 高 达 0.977, 能 很 好 地 区 分 正 负 样本 , 但 是 
整个 样本 空间 的 预测 值 曲面 不 是 Lipschitz 连 续 ， 在 某 些 位 置 大 起 大 落 。 在 双 月 集 上 ， 如 子 图 lcf 所 
示 , FM 也 在 一 些 区 域 变 化 剧烈 。 


在 3 个 数据 集 上 训练 接 圆 回归 ， 使 用 3 个 折 面 ,效果 见 图 2。 子 图 2afk 是 与 式 (3.1) 对 应 的 单个 折 
FE 意 点 处 梯度 均 不 为 零 ， 考虑 到 折 痕 的 测度 为 0, 因此 可 以 说 
2bgl 均 为 3 个 折 面 放 在 一 起 的 效果 ,特别 注意 ,3 个 折 面 的 折 


面 , 除了 折 痕 一 条 线 之 外 , 折 面 上 的 人 
折 面 上 的 梯度 几乎 处 处 不 为 零 。 子 图 


痕 都 有 交 于 一 点 。 子 图 2chm 均 为 3 个 折 面 盒 加 后 得 到 的 锥 面 ， 折 痕 交 点 成 为 锥 面 的 项 点。 将 锥 面 
进行 Sigmoid 变 换 得 到 子 图 2din， 其 俯视 图 是 子 图 2ejo。 这 15 张 子 图 直观 反映 了 接 圆 回归 的 设计 目 
标 : 接 圆 回 归 用 超 平面 围 出 一 个 封闭 凸 多 面体 。 对 星 环 集 、 双 堆 集 来 说 ， 都 存在 一 个 凸 多 边 形 使 


得 正 样 本 全 部 落 在 多 边 形 内 j 
边 形 , 因此 能 在 子 图 2o 中 看 出 接 


图 2 显示 , 接 圆 区 


旦 负 相 
圆 回 归 没 能 将 了 


本 全 部 落 在 多 边 形 外 。 但 对 双 月 集 来 说 , 不 存在 这 个 样 的 凸 多 
E 负 样本 很 好 地 区 分 开 。 
归 拟 合 的 曲面 Lipschitz 连 续 ， 变 化 平缓 。 这 点 优 于 FM。 


Avazu 集 和 Criteo 集 都 是 著名 的 点 击 预测 数据 集 ， 实 验 所 用 数据 来 自 LIBSVM 官 网 ) 。Avazu 集 


特征 数量 99 9999, 训练 集 avazu-app.tr.bz2 样 本 数量 


1264 2186, 验证 集 avazu-app.val.bz2 样 本 数量 195 3951。 


Criteo 集 特征 数量 999990， 将 数据 文件 criteo.kaggle2014.svm.tar.gz 随 机 划分 为 训练 集 和 验证 集 ， 训 


练 集 样本 数量 12642186， 验 订 


FE 集 样本 数量 195 3951。 表 1 和 表 2 显示 ， 在 这 2 个 数据 集 上 ， 接 圆 回 归 


D) https://www.csie.ntu.edu.tw/“cjlin/libsvmtools/datasets/binary.html 
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(k) (1) (m) 
2: 星 环 集 (第 一 行 )、 双 堆 集 (第 二 行 )、 双 月 集 (第 三 行 ) 上 的 3 折 面 接 圆 回归 效果 。 第 1 列 是 与 


Ss 
(n 


式 (3.1) 对 应 的 1 个 折 面 , 第 2 列 是 与 式 (3.1) 对 应 的 3 个 折 国 


j 放 在 一 起 ; 第 3 列 是 与 式 (3.2) 对 应 的 z; 第 4 列 


是 与 式 (3.3) 对 应 的 分 数 a; 第 5 列 是 第 4 行 的 俯视 图 。 


表 2: FM 和 接 圆 回归 在 Criteo 集 上 的 表现 。 
模型 参数 验证 集 AUC 
FM Kk-4, -0.2, n 二 0.002 0.7934 
FM kK-16, -0.2, 7 二 0.002 0.7941 
FM k=64, A=0.2, 7 = 0.002 0.7947 
接 圆 回 归 m=4, 和 A=1,m=0, m2=0.001 0.7732 
接 圆 回归 | m=16, 和 和 =8,m==0, 72 一 0.001 0.7951 


的 AUC 略 优 于 FM。 
从 本 节 的 实验 中 可 以 看 出 接 圆 回归 的 几 个 优点 : 


直观 的 几何 解释 ， 拟 合 的 曲面 变化 平 组 


(Lipschitz 连续 ), 任意 初 值 都 收敛 到 全 局 最 优点 ,， AUC 和 损失 函数 值 单调 增 、 减 , AUC 随 折 面 数 


量 增加 而 增加 。 


8. 讨论 和 总 结 


定义 1， 对 数据 集 D， 其 中 的 正 样本 集 记 为 Di， 负 样本 集 记 为 Do。 如 果 都 存在 一 个 封闭 西区 


域 , 使 得 D 全 部 落 在 多 边 形 内 且 Do 全 部 落 在 多 边 形 外 
接 圆 回 归 的 直觉 设计 目标 是 


， 那 么 称 万 是 凸 可 分 的 。 


猜想 1， 在 凸 可 分 集 D 上 ， 接 圆 回 归 的 目标 函数 及 (Wb, 加 几乎 处 处 严格 西 。 
如 果 猜 想 1 成 立 , 那么 接 圆 回归 训练 时 ,对 任意 初始 值 , 式 (3.8) 都 能 一 次 收敛 到 全 局 最 优 解 , 克服 


了 FM 的 缺点 。 
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由 定义 1 可 知 , 星 环 集 、 双 扒 集 都 是 凸 可 分 的 , 双 月 集 不 是 凸 可 分 的 , 微 博 集 、Avazu 集 和 Criteo 重 


不 而 


外 定 是 否 凸 可 分 。 但 是 ,在 实际 训练 中 ， 接 圆 回归 在 这 6 个 数据 集 上 都 是 对 任意 初始 值 一 次 性 


收敛 到 全 局 最 优 解 , 这 意味 着 猜想 很 可 能 是 成 立 的 ,甚至 在 更 宽松 的 条 件 下 成 立 。 


实验 不 能 代 蔡 证 明 , 猜想 1 还 需要 严格 的 数学 证 明 。 
在 深度 CTR 模 型 中 ,， 接 圆 回归 有 望 接替 轴 辑 回归 的 位 置 ， 例 如 将 Deep & Cross 最 后 一 层 的 四 


辑 回归 更 换 为 接 圆 回归 。 模子 正则 也 可 以 应 用 到 各 种 深度 学 习 模 型 当中 。 
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